查看原文
其他

设计矩阵(design matrices)

吕琼 珠江肿瘤 2024-03-27

        引言:在前面的讨论中,我们知道左侧的矩阵为非标准设计矩阵(第一列为1或0),而右侧的矩阵为标准设计矩阵(第一列均为1),更为常用。接下来我们便来了解标准设计矩阵和与之相关的方程。

1. 标准设计矩阵的“开”与“关”

    标准设计矩阵同非标准设计矩阵原理一样,同样使用1与0实现数据“开”与“关”的转换。

  • 第一列,所有的control和mutant均记作1,乘以对照组均值meancontrol

  • 第二列,mutant组记作1,乘以difference(mutant - control);对照组记作0,乘以difference(mutant-control)后依然为0。其中difference(mutant - control)代表两组均值的差异。

同样的,可将标准设计矩阵相关的方程进行简写,省略1和0,如下:

根据设计矩阵和拟合模型,可计算样本中的数据:

  • 例如第一行第一列的1,代表meancontrol开,第一行第二列的0,代表difference(mutant- control)关,结合该数据的截距值,便可以表示对照组第一个数据的值;

  • 再如,第五行第一列的1,代表meancontrol开,第五行第二列的1,代表difference(mutant- control)开,结合该数据的截距值,便可表示突变组第一个数据的值。

2. 标准设计矩阵与非标准设计矩阵的比较

标准与非标准设计矩阵的结果一致

利用非标准设计矩阵与标准设计矩阵得出的拟合直线的残差平方和相等(蓝色虚线示残差)。两个方程中的参数个数相等,pfit相等(均为2)。基于此性质,利用两种方程计算出的F值相等,经F值转换得相等的p值(见下图)。

标准设计矩阵更常见:有利于回归分析

尽管非标准设计矩阵与标准设计矩阵得出的结论一致,为什么标准矩阵更加常见呢?Josh Starmer老师给出的解释是,可能标准矩阵更有利于回归分析。

  • 除了许多1和0可以组成设计矩阵外,任何我们想要设置的数均可组成设计矩阵。例如,在如下设计矩阵中,其与方程y=y-截距+slope共同实现线性回归。

在该设计矩阵中,第一列均为1,第二列为x轴的数据值。

  • 例如设计矩阵的第一行(1,0.9),将其与方程中的截距和斜率相乘,便可表示左侧第一个数据的值。假设截距和斜率已知,分别为0.01和0.8,可计算出基于该拟合直线的预测值为0.73(绿色X示预测值)。

  • 同理,分别将设计矩阵中的数据代入回归方程,便可以计算出基于该拟合直线的所有预测值。当我们将所有的预测数据绘制在拟合直线时,接下来便可以计算残差和p值。

3. 回归分析实现t-test

标准设计矩阵更为常见,故接下来的示例均会使用标准设计矩阵(设计矩阵的第一列均为1)。此外,我们可将任何想要设置的数字放入设计矩阵以完成回归分析。接下来,我们学习如何使用回归分析实现t-test。

示例:在探讨小鼠体重与小鼠体积的关系中,我们将数据绘制在二维坐标中,并用不同的颜色标识对照组小鼠和突变组小鼠。

  • 通过肉眼观察,可以发现相同体重的小鼠中,突变组的小鼠似乎体积更大。问题:对两组数据分别进行回归分析,我们能使用统计方法来检验两组小鼠是否存在显著差异吗?

  • 如果我们仅对所有的数据做一次回归,仅能得出小鼠体积随小鼠体重变化而变化的趋势。

    不能得出对照组小鼠与突变组小鼠是否有差异的结论。


  • 如果我们对这两组数据进行常规t检验,该检验将忽略小鼠体积与小鼠体重的关系。

    如果p值<0.05,我们仅能得出突变型小鼠体积>对照组小鼠体积。


  • 如果我们对两条拟合直线进行检验,该检验可同时考虑小鼠类型(突变组 或 对照组)、小鼠的体重与小鼠体积的关系这两个因素。


为了实现该统计检验,需要结合设计矩阵对两条直线进行合并。拟合方程包含3项: 对照组的截距(control intercept)+突变组与对照组的差别(mutant offset)+斜率(slope)

标准设计矩阵共有3列:

  • 第一列展示对照组的截距,均为1,相当于数据的基线水平;

  • 第二列展示突变组与对照组的差别,0代表突变组“关”(展示对照组),1代表突变组“开”(展示突变组);

  • 第三列展示斜率,在该例中二组的斜率相等。分别乘以不同的x轴数值,即可得到基于小鼠的体重的预测结果。

在该设计矩阵中,前4行代表对照组预测数据(红色直线上),后4行代表突变组预测数据(绿色直线上)。基于预测数据,我们可以计算拟合直线的残差(蓝色虚线)、残差平方和SS(fancy)、F值和P值。


复杂模型与简单模型间的比较:

① 结合设计矩阵的模型(fancy model,可理解为高级模型)与仅考虑小鼠体积的均值模型(simple model,可理解为最简单的模型)进行比较,计算F值。因为在fancy model中,用到的参数个数为3,故Pfancy=3;在simple model中,用到的参数仅有1个,故Psimple=1。将结果带入F值的计算公式,得到如下结果:

结果解读:P值=0.003<0.05,提示考虑小鼠体重与小鼠体积的关系、考虑小鼠类型的模型(fancy model)较仅考虑小鼠平均体积的均值拟合直线模型(simple model)的预测效果更优,能更好的预测小鼠的体积。

② 结合设计矩阵的模型(fancy model,可理解为高级模型)与仅考虑小鼠体重与小鼠体积关系的简单线性模型(simple model,可理解为较简单的模型)进行比较,计算F值。因为在fancy model中,用到的参数个数为3,故Pfancy=3;在simple model中,用到的参数仅有2个,故Psimple=2。将结果带入F值的计算公式,得到如下结果:

结果解读:P值=0.0023<0.05,提示同时考虑小鼠体重与小鼠体积的关系、小鼠类型的模型(fancy model)较仅考虑小鼠体重与小鼠关系的简单线性模型(simple model)的预测效果更优,能更好的预测小鼠的体积。这也说明不同的小鼠类型间存在显著差异。

③ 结合设计矩阵的模型(fancy model)与仅考虑小鼠体积与小鼠类型的简单线性模型(simple model)进行比较,计算F值。因为在fancy model中,用到的参数个数为3,故Pfancy=3;在simple model中,用到的参数仅有2个,故Psimple=2。将结果带入F值的计算公式,得到如下结果:

结果解读:P值=0.0025<0.05,提示同时考虑小鼠体重与小鼠体积的关系、小鼠类型的模型(fancy model)较仅考虑小鼠体积与小鼠类型的简单线性模型(simple model)的预测效果更优,能更好的预测小鼠的体积。这也说明小鼠体重与小鼠体积之间存在显著性关联。

以上比较得出:同时考虑小鼠体重与小鼠体积的关系、小鼠类型的模型(fancy model)能够较其他简单的模型更好的预测小鼠的体积,说明考虑小鼠体重与小鼠体积时,不同的小鼠类型间存在差异。

4. 利用设计矩阵校正批次效应(batch effect)

        由于批次效应,lab B在重复lab A的工作时,发现其总体测量结果较lab的总体测量结果偏低。如果要结合这两个数据集,分析是否突变组数据与对照组数据有显著差异,我们首先需要校正批次效应。

  • 在利用标准设计矩阵进行数据“拟合”时,首先计算lab A中对照组的均值(lab A control mean),接着添加lab B 的开关(lab B offset)用以校正批次效应,然后添加突变组与对照组的差异(difference(mutant-control))。基于此的方程和设计矩阵如下图所示:

在我们此次的比较中,我们主要是想知道校正批次效应后,突变组和对照组之间的基因表达是否具有差异。 换句话说,我们想知道方程中的最后一项(突变组与对照组的差异)或设计矩阵中最后一列是否重要。

  • 将含有最后一项的模型(fancy model)和不含最后一项的模型(simple model)进行比较,计算F值和p值。F值和P值的计算方法同前,如果F值非常小,p值非常小(如p<0.05),则说明考虑突变和对照差异的模型(fancy model)的预测效果较不考虑突变组和对照组差异的模型(simple model)更优,也提示突变组和对照组之间存在显著差异。


参考视频:

https://www.youtube.com/watch?v=CqLGvwi-5Pc&t=3s


编辑:吕琼

校审:罗鹏


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存